热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

小王|私信_Kettle实现ES到ES循环增量抽取

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Kettle实现ES到ES循环增量抽取相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Kettle实现ES到ES循环增量抽取相关的知识,希望对你有一定的参考价值。



主页:​​小王叔叔的博客​​欢迎来访

支持:点赞Kettle实现ES到ES循环增量抽取_数据源收藏Kettle实现ES到ES循环增量抽取_mysql_02关注Kettle实现ES到ES循环增量抽取_kettle_03

本博客内容,实践前,请先逐一浏览,然后再逐一学习

1、效果

Kettle实现ES到ES循环增量抽取_ES_04

2、实现

2.1 创建数据库

见 ​​Kettle安装使用​​

2.2 创建作业

2.2.1 初始化变量:设置变量,通过变量实现作业的循环更新初始值

Kettle实现ES到ES循环增量抽取_kettle_05Kettle实现ES到ES循环增量抽取_kettle_06

parent_job.setVariable("isContinue", "1");
parent_job.setVariable("lastUpdateTime", "");
true;

2.2.2 创建核心转换

【见2.3】

2.2.3 写日志记录

Kettle实现ES到ES循环增量抽取_ES_07Kettle实现ES到ES循环增量抽取_mysql_08

isCOntinue= $isContinue-------------------
lastUpdateTime = $lastUpdateTime===============

2.2.4 设置循环

Kettle实现ES到ES循环增量抽取_mysql_09Kettle实现ES到ES循环增量抽取_mysql_10

通过【2.2】中设置,可以将基本循环抽取动作的作业可以实现循环。

2.3 创建转换:关键处!!!

思路:

1.通过mysql中kettle业务抽取的时间备用表,进行设置最后一次修改更新时间。

2.设置基本循环单次抽取的条数,和基本抽取的json格式

3.设置抽取的数据源

4.解析抽取后的es中内置的hits-source的相关结构

5.成功解析之后,将抽取到的数据进行入库,同时变量获取最新的更新时间保存到MySQL中,便于下次更新使用

2.3.1 选择数据源

Kettle实现ES到ES循环增量抽取_数据源_11

select round(unix_timestamp(timetable_dev.modify_time)*1000) as modifyTime, 1 as isContinue
from es_kettle.timetable_dev WHERE index_name = sta_resource_operation

2.3.2 更新常量

Kettle实现ES到ES循环增量抽取_数据源_12

"from":0,"size":10,"query":"bool":"filter":["bool":"must":["range":"last_update_time":"from":startTime,"to":null,"include_lower":true,"include_upper":true,"boost":1],"adjust_pure_negative":true,"boost":1],"adjust_pure_negative":true,"boost":1,"sort":["last_update_time":"order":"asc"]

2.3.4 参数替换

Kettle实现ES到ES循环增量抽取_ES_13Kettle实现ES到ES循环增量抽取_ES_14​2.3.5 设置数据源基本请求信息

Kettle实现ES到ES循环增量抽取_mysql_15Kettle实现ES到ES循环增量抽取_ES_16​2.3.6 配置解析hits结构

Kettle实现ES到ES循环增量抽取_数据源_17Kettle实现ES到ES循环增量抽取_kettle_18​2.3.7 配置解析的结构

Kettle实现ES到ES循环增量抽取_ES_19Kettle实现ES到ES循环增量抽取_kettle_20​2.3.8 筛选结构

Kettle实现ES到ES循环增量抽取_数据源_21Kettle实现ES到ES循环增量抽取_kettle_22​2.3.9 最后如ES库

Kettle实现ES到ES循环增量抽取_数据源_23Kettle实现ES到ES循环增量抽取_ES_24​2.3.10 根据时间设置循环

Kettle实现ES到ES循环增量抽取_数据源_25Kettle实现ES到ES循环增量抽取_mysql_26

执行SQL脚本:

update es_kettle.timetable_dev set modify_time = FROM_UNIXTIME(?, %Y-%m-%d %H:%i:%S) where index_name = sta_resource_operation

以上就是ES通过作业,转换进行抽取到新的ES结果

3、注意事项

3.1)设置对应字段

3.2)组件之间的关联性

4、最后完成效果

Kettle实现ES到ES循环增量抽取_mysql_27Kettle实现ES到ES循环增量抽取_mysql_28

Kettle实现ES到ES循环增量抽取_mysql_29

转载声明:本文为博主原创文章,未经博主允许不得转载

⚠️注意 ~


推荐阅读
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • Oracle分析函数first_value()和last_value()的用法及原理
    本文介绍了Oracle分析函数first_value()和last_value()的用法和原理,以及在查询销售记录日期和部门中的应用。通过示例和解释,详细说明了first_value()和last_value()的功能和不同之处。同时,对于last_value()的结果出现不一样的情况进行了解释,并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]
  • Android JSON基础,音视频开发进阶指南目录
    Array里面的对象数据是有序的,json字符串最外层是方括号的,方括号:[]解析jsonArray代码try{json字符串最外层是 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • Monkey《大话移动——Android与iOS应用测试指南》的预购信息发布啦!
    Monkey《大话移动——Android与iOS应用测试指南》的预购信息已经发布,可以在京东和当当网进行预购。感谢几位大牛给出的书评,并呼吁大家的支持。明天京东的链接也将发布。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • 本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出,并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码,并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作,但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]
author-avatar
溪边莎草
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有